走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

下一个人工智能瓶颈不是模型:而是推理系统

The Next AI Bottleneck Isn’t the Model: It’s the Inference System

企业人工智能系统正在进入一个阶段,推理设计与模型能力本身一样重要。下一个人工智能瓶颈不是模型:而是推理系统一文首先出现在《走向数据科学》上。

OpenAI 131,000-GPU 训练结构背后的违反直觉的网络决策

The Counterintuitive Networking Decisions Behind OpenAI’s 131,000-GPU Training Fabric

对 MRC 的三个反直觉设计决策、使它们发挥作用的网络数学以及它们对 AI 基础设施社区其他成员的意义进行了批判性分析。OpenAI 131,000-GPU 训练结构背后的反直觉网络决策一文首先出现在《走向数据科学》上。

我让 CodeSpeak 接管我的存储库

I Let CodeSpeak Take Over My Repository

当我将超过 10K 行的项目迁移到 AI 原生工作流程中时发生了什么我让 CodeSpeak 接管我的存储库的帖子首先出现在 Towards Data Science 上。

如何使用 Claude 代码编写健壮的代码

How to Write Robust Code with Claude Code

Improve the quality of Claude Code output. 《如何使用 Claude Code 编写健壮的代码》一文首先出现在《走向数据科学》上。

我两次构建了相同的 B2B 文档提取器:规则与 LLM

I Built the Same B2B Document Extractor Twice: Rules vs. LLM

使用 pytesseract 的基于规则的 PDF 提取与使用 Ollama 和 LLaMA 3 的基于 LLM 的方法之间的实际比较,基于现实的 B2B 订单场景。我构建相同的 B2B 文档提取器两次:规则与 LLM 的帖子首先出现在 Towards Data Science 上。

从泰坦尼克号数据集中探索生存模式

Exploring Patterns of Survival from the Titanic Dataset

使用 Pandas、Matplolib 和 Seaborn 进行探索性数据分析的初学者教程《从泰坦尼克号数据集中探索生存模式》一文首先出现在《走向数据科学》上。

对法学硕士洗脑的最佳方式是什么?

What’s the Best Way to Brainwash an LLM?

I spent a weekend trying to convince a language model it was C-3PO. Here's what actually worked.The post What’s the Best Way to Brainwash an LLM?首先出现在《走向数据科学》上。

从 Vibe 编码到规范驱动开发

From Vibe Coding to Spec-Driven Development

与 LLM 代理一起从创意到工作健身应用程序的 4.5 小时旅程从 Vibe 编码到规范驱动开发的帖子首先出现在 Towards Data Science 上。

生产 RAG 中的混合搜索和重新排名

Hybrid Search and Re-Ranking in Production RAG

当语义搜索对于 RAG 来说还不够时,生产 RAG 中的混合搜索和重新排名一文首先出现在 Towards Data Science 上。

学习词向量进行情感分析:Python 再现

Learning Word Vectors for Sentiment Analysis: A Python Reproduction

如何使用语义学习、星级评定和线性 SVM 分类从 IMDb 评论中构建情感感知词表示用于情感分析的学习词向量:Python 再现首先出现在《走向数据科学》上。

如何构建 Claude 代码驱动的知识库

How to Build a Claude Code-Powered Knowledge Base

对个人知识进行高效的数据检索 如何构建 Claude 代码驱动的知识库一文首先出现在 Towards Data Science 上。

使用变压器预测极其罕见的太阳耀斑

Using Transformers to Forecast Incredibly Rare Solar Flares

机器学习如何针对罕见事件做出改变使用 Transformers 来预测极其罕见的太阳耀斑一文首先出现在 Towards Data Science 上。

PySpark 初学者:掌握基础知识

PySpark for Beginners: Mastering the Basics

理解分布式数据、惰性逻辑和您的第一个 DataFrame 的分步指南。面向初学者的 PySpark:掌握基础知识一文首先出现在 Towards Data Science 上。

批处理还是流处理?永恒的数据处理困境

Batch or Stream? The Eternal Data Processing Dilemma

“我们应该批量处理数据还是实时处理数据?”这不是批处理与流处理的问题:而是“答案何时重要?”后的批处理还是流处理?永恒的数据处理困境首先出现在《走向数据科学》上。

LLM 摘要器跳过识别步骤

LLM Summarizers Skip the Identification Step

一位从业者的论点是,当你跳过询问数据可以支持什么的部分时,会议总结者会以同样的方式回归会失败。LLM 总结者跳过识别步骤的帖子首先出现在走向数据科学上。

RAG 对时间视而不见 — 我构建了一个时间层来在生产中修复它

RAG Is Blind to Time — I Built a Temporal Layer to Fix It in Production

测试三周后,一名学习者告诉我,我的人工智能导师给了她错误的答案。并不是明显错误 - 只是过时到足以误导。就在那一刻,我意识到大多数 RAG 系统都悄悄忽略了一些事情:它们没有时间观念。我的系统检索到最相似的文档,而不是最新的文档。在不断变化的知识库中,这是一个严重的缺陷。修复方法不在检索器或模型中。它就在它们之间的间隙中。我构建了一个时间层,可以过滤过期的事实,增强对时间敏感的信号,并使系统更喜欢仍然真实的内容,而不仅仅是匹配的内容。文章《RAG 对时间视而不见——我构建了一个时间层来在生产中修复它》首先出现在《走向数据科学》上。

从数据科学家到 AI 架构师

From Data Scientist to AI Architect

数据科学中以模型为中心的思维的终结《从数据科学家到 AI 架构师》一文首先出现在《走向数据科学》上。

AI 代理安全面:添加工具和内存时会暴露什么

The AI Agent Security Surface: What Gets Exposed When You Add Tools and Memory

标准即时攻击仅仅是开始。用于映射和减轻代理工作流程的后端攻击向量的结构化框架。这篇文章《人工智能代理安全表面:添加工具和内存时会暴露什么》首先出现在《走向数据科学》上。